Intégration des Tableaux Multidimensionnels en Pig pour l'Entreposage de Données sur les Nuages
نویسندگان
چکیده
Résumé. Les entrepôts de données et les systèmes OLAP correspondent à des technologies d’aide à la décision. Ils permettent d’analyser à la volée de gros volumes de données représentés en fonction d’un modèle multidimensionnel. L’informatique dans les nuages, sous l’impulsion des grandes compagnies telles que Google, Microsoft ou encore Amazon, a récemment suscité une attention particulière. Considérer l’interrogation OLAP et les entrepôts de données au sein de telles infrastructures devient alors un enjeu majeur. Les problèmes devant être considérés sont ceux classiques des systèmes largement distribués (interrogation de gros volumes de données, hétérogénéité sémantique et structurelle ou encore variabilité), mais d’un nouveau point de vue devant considérer les spécificités de ces architectures (facturation à l’utilisation, élasticité et facilité d’utilisation). Dans ce papier nous abordons dans un premier temps les règles de facturation à l’utilisation pour le stockage des entrepôts de données. Nous proposons d’utiliser des techniques de stockage pour nuages à base de tableaux multidimensionnels. De premières expérimentations montrent l’intérêt de notre proposition. Ensuite, nous listons des perspectives de recherche.
منابع مشابه
Entreposage et analyse en ligne dans les nuages avec Pig
RÉSUMÉ Les entrepôts de données et les systèmes OLAP permettent d’analyser à la volée de gros volumes de données. L’informatique dans les nuages vise à proposer des capacités de calcul et de stockage virtuellement infinies. Considérer l’analyse et l’entreposage de données au sein des nuages informatiques devient alors un enjeu majeur. Les problèmes à aborder sont ceux classiques des systèmes la...
متن کاملModélisation adaptée aux besoins utilisateurs dans le développement des systèmes d'information décisionnels
Résumé. La démocratisation des systèmes d’information décisionnels (SID) nécessite le développement de méthodes de conception. Contrairement aux modèles de systèmes d’information (SI) qui n’ont pas pour objet d’être compris par les utilisateurs, les modèles des SID doivent être exploitables par les analystes et les décideurs. Parmi les méthodes d’ingénierie des SID qui ont été proposées, rares ...
متن کاملFouille de Données Multidimensionnelles : Différentes Stratégies pour Prendre en Compte la Mesure
Résumé. Les entrepôts de données contiennent de gros volumes de données historisées stockées à des fins d’analyse. Des techniques d’extraction de motifs séquentiels multidimensionnels ont été développées afin de mettre en exergue des corrélations entre des positions sur des dimensions au cours du temps. Même si ces méthodes offrent une meilleure appréhension des données sources en prenant en co...
متن کاملUne structure basée sur les hiérarchies pour synthétiser les itemsets fréquents extraits dans des fenêtres temporelles
Résumé. Le paradigme des flots de données rend impossible la conservation de l’intégralité de l’historique d’un flot qu’il faut alors résumer. L’extraction d’itemsets fréquents sur des fenêtres temporelles semble tout à fait adaptée mais l’amoncellement des résultats indépendants rend impossible l’exploitation de ces résultats. Nous proposons une structure basée sur les hiérarchies des données ...
متن کاملModèle de préférences contextuelles pour les analyses OLAP
Les systèmes OLAP (On-Line Analytical Processing) permettent l’analyse de grands volumes de données issues des systèmes transactionnels de l’entreprise. Ils reposent le plus souvent sur des bases de données multidimensionnelles (BDM) qui organisent les données en sujets d’analyse appelés faits, et axes d’analyse appelés dimensions. L’analyse en ligne OLAP consiste à explorer intuitivement les B...
متن کامل